QuantDTypeCast
逐元素执行量化与反量化的数据类型转换操作,用于在浮点数与整型量化表示之间进行转换。
Quantize:将 fp32/fp16 数据量化为 int8
Dequantize:将 int8 数据反量化为 fp32/fp16
\[\text{Quantize:}\quad
q_i = \operatorname{clip}\Bigl(\operatorname{round}\bigl(\frac{x_i}{\text{scale}} + \text{zp}\bigr),\ q_{\min},\ q_{\max}\Bigr)\]
\[\text{Dequantize:}\quad
x_i = (q_i - \text{zp}) \times \text{scale}\]
其中:
\(x_i\) 为输入浮点值
\(q_i\) 为量化后的整型值
\(\text{scale}\) 为量化比例因子
\(\text{zp}\) 为零点(zero point)
\(q_{\min}, q_{\max}\) 为量化数据类型的取值范围(int8 对应 -128 到 127)
- 输入:
input - 输入数据地址。
scale - 量化或反量化所使用的比例因子。
zp - 零点(zero point)。
length - 输入数据的元素个数。
core_mask - 核掩码。
- 输出:
output - 输出数据地址,其大小与
input相同。
- 支持平台:
FT78NEMT7004
备注
- FT78NE 支持的数据类型:
Quantize:fp32 → int8
Dequantize:int8 → fp32
- MT7004 支持的数据类型:
Quantize:fp32/fp16 → int8
Dequantize:int8 → fp32/fp16
当输入值为
+∞或-∞时,Quantize 结果分别饱和到q_max或q_min
共享存储版本:
-
void fp_to_i8_quant_s(float *input, int8_t *output, float scale, int zp, int length, int core_mask)
-
void i8_to_fp_dequant_s(int8_t *input, float *output, float scale, int zp, int length, int core_mask)
-
void hp_to_i8_quant_s(half *input, int8_t *output, half scale, int zp, int length, int core_mask)
-
void i8_to_hp_dequant_s(int8_t *input, half *output, half scale, int zp, int length, int core_mask)
C调用示例:
1// FT78NE 多核示例(Quantize)
2#include <stdio.h>
3#include <quant_dtype_cast.h>
4
5int main(int argc, char* argv[]) {
6 float *input = (float *)0xA0000000; // input 在 DDR 空间
7 int8_t *output = (int8_t *)0xB0000000; // output 在 DDR 空间
8
9 float scale = 0.05f;
10 int zp = 0;
11 int length = 4096;
12 int core_mask = 0xff;
13
14 fp_to_i8_quant_s(input, output, scale, zp, length, core_mask);
15 return 0;
16}
私有存储版本:
-
void fp_to_i8_quant_p(float *input, int8_t *output, float scale, int zp, int length)
-
void i8_to_fp_dequant_p(int8_t *input, float *output, float scale, int zp, int length)
-
void hp_to_i8_quant_p(half *input, int8_t *output, half scale, int zp, int length)
-
void i8_to_hp_dequant_p(int8_t *input, half *output, half scale, int zp, int length)
C调用示例:
1// MT7004 单核示例(Dequantize)
2#include <stdio.h>
3#include <quant_dtype_cast.h>
4
5int main(int argc, char* argv[]) {
6 int8_t *input = (int8_t *)0x10000000; // input 在 L2 空间
7 float *output = (float *)0x11000000; // output 在 L2 空间
8
9 float scale = 0.05f;
10 int zp = 0;
11 int length = 1024;
12
13 i8_to_fp_dequant_p(input, output, scale, zp, length);
14 return 0;
15}